第 37 卷 第 1 其 计算 机 应 用 研究 Vol.37 No.1 
录用 定稿 Application Research of Computers Accepted Paper 


基于 复合 特征 和 动态 阔 值 圆 法 的 手势 识别 算法 研究 
王 梅 , 张 震 , 张 曦 ， 必 大 维 


(上 海 大 学 机 电工 程 与 自动 化 学 院 ， 上 海 200072) 


摘 要 : 针对 传统 手势 识别 中 用 肤色 分 割 手 部 区 域 效 果 的 局 限 性 ,采用 Kinect 获取 深度 信息 来 分 割 手掌 ， 能 得 到 较 好 
效果 。 对 手掌 轮廓 进行 多 边 形 逼 近 ， 将 凸 包 点 作为 候选 指 失 点 。 利 用 非 零 像 素 〈 白 ) 到 最 近 零 像素 的 距离 提取 掌心 ， 
用 线性 回归 动态 调整 装 值 圆 半 径 ， 将 无 用 凸 包 点 过 滤 ， 实 现 指 失 点 准确 提取 。 在 分 类 识别 中 ， 将 图 像 的 Hu 和 矩 和 指 失 
点 个 数组 合 起 来 ， 作 为 复合 手势 特征 ， 导 入 KNN 分 类 器 中 ， 实 现 手 势 识别 。 实 验证 明 ， 基 于 复合 特征 和 动态 冰 值 圆 法 
的 手势 识别 算法 具有 较 好 的 识别 率 和 实时 性 
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Gesturerecognitionthat based on combined features and dynamic threshold circle 


Wang Mei, Zhang Zhen, Zhang Xi, Tu Dawei 
(College of Mechatronics Engineering & Automation, Shanghai University, Shanghai 200072, China) 


Abstract: For the limitation of hand region segmention with skin color in the traditional gesture recognition, using Kinect to 
obtaining depth information to segment the palm can get better results. The palm contour is polygonal approximation, and the 
convex points are selected as the candidate fingertip. The fingertips are distinguished accurately from the unwanted convex 
points by a threshold circle. Utilizing the distance relation of the non zero pixel (white) to the nearest zero pixel to extract the 
palm center, the threshold circle transform radius dynamically by linear regression method. In the classification and recognition, 
combining the Hu moment and the number of fingertip as the feature of gesture, and the KNN classifier achieve gesture 
recognition. Experiments show that the gesture recognition algorithm based on composite features and dynamic threshold circle 
method has better recognition rate and real-time performance. 
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0 ”引言 提出 了 利用 灰 度 直方 图 加 来 进行 手掌 检测 ， 灰 度 直方 图 依赖 于 
图 像 灰 度 的 阶 跃 变化 ， 能 够 较 好 的 分 割 手势 ， 但 是 该 过 程 计 算 
作为 新 一 代 人 机 交互 的 重要 手段 ， 手 势 识别 成 为 近年 来 的 ”较为 复杂 , 需要 花费 较 多 时 间 时 间 。 与 RGB 图 像 相 比 , 深度 图 
研究 热点 ,在 虚拟 现实 、 远 程控 制 和 交通 等 领域 得 到 广泛 应 用 。 像 具 有 物体 三 维特 征 信 息 ， 即 深度 信息 。 由 于 深度 图 像 不 受 光 
期 研究 集中 于 专用 设备 的 研制 ， 如 数据 手套 可 以 提供 手 部 各 ”” 源 照射 方向 及 物体 表面 的 发 射 特性 的 影响 ， 而 且 不 存在 阴影 ， 
关节 数据 趾 , 用 于 精确 手势 识别 , 但 设备 昂贵 、 过 程 繁 琐 制 约 了 不 受 颜色 相近 信号 影响 ， 所 以 可 以 更 准确 迅速 地 识别 手势 四 。 
其 应 用 ; 其 后 , 通过 在 手 部 做 标记 的 标记 手势 研究 外 发 展 起 来 ， 基于 视觉 的 手势 识别 需要 经 过 分 割 、 表 示 、 识 别 等 三 个 阶 
但 受 限 于 标志 点 位 置 和 数量 等 因素 ， 识 别 手势 种 类 有 限 ， 局 限 。 段 中 。 手 势 分 割 阶段 主要 是 将 手掌 从 环境 中 分 割 出 ， 在 该 环节 
性 较 大 。 因 而 ， 基 于 视觉 的 手势 识别 方法 外 应 运 而 生 。 中 主要 解决 背景 对 手势 分 割 的 影响 。 手 势 表 示 则 通过 一 定 的 特 
基于 视觉 的 手势 识别 系统 主要 分 为 基于 RGB 图 像 和 基于 ” 征 来 表征 人 手 模型 ， 较 常用 的 是 以 指 尖 特征 和 掌心 特征 为 重要 
深度 图 像 两 类 。 传 统 的 RGB 图 像 的 手势 分 割 在 HSV( 或 YCrCb) ”环节 的 轮廓 特征 名。 文献 [9] 中 将 手掌 分 区 并 对 不 同 区 域 设置 权 
颜色 空间 下 , 通过 肤色 与 背景 的 明显 差异 , 将 手 部 分 离 出 来 由 。 值 来 确定 和 掌心， 减少 手指 部 分 对 掌心 位 置 的 影响 ， 此 方法 虽 可 


om 场景 等 要 求 较 高 ， 且 当 人 体 其 他 部 位 〈 如 脸 ) 获取 较 好 的 掌心 位 置 ， 但 是 对 区 域 划分 要 求 较 高 ， 文 中 采用 基 
出 现时 ， 会 造成 较 大 干扰 ， 效 果 较 差 。 在 此 基础 上 ， 研 究 者 又 。” 于 轮廓 曲率 的 指 尖 点 识别 方法 。 高 晨 等 人 0 采用 计算 手掌 轮廓 
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最 大 内 切 圆 的 方向 确定 掌心 位 置 ， 对 于 特定 手势 适用 性 有 限 。 
手势 识别 以 特征 为 依据 ， 判 别人 体 手势 含义 ， 常 用 的 方法 有 基 
于 模板 匹配 法 与 分 类 算法 0 。 

本 文 提 出 一 种 基于 复合 特征 和 动态 阔 值 圆 法 的 手势 识别 算 
法 ， 将 分 别 从 手势 分 割 、 手 势 特征 提取 、 手 势 分 类 识别 等 方面 
加 以 介绍 。 


1 手势 分 割 


本 文 利 用 Kinect 的 彩色 相机 和 深度 传感器 ,获取 人 体 信息 
(图 1)， 以 完成 手势 识别 。 
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\ 


IR Depth Sensor 
- sa Tilt Motor 


\ 
2 
NicrophoneArray 


(a)Kinect 相机 


(a)Kinect camera 


多 (0) 深 度 图 像 
(b) color image (c) depth image 
图 1 Kinect 相机 及 其 获取 的 彩色 图 像 与 深度 图 像 


Fig.1 Kinect camera and its acquired and depth image 

利用 Kinect 和 OpenNI 的 手掌 跟踪 算法 获取 手掌 心 的 三 维 
坐标 (xm yz 。 利 用 场景 中 其 他 杂 体 和 手掌 与 传感器 的 距离 
(深度 ) 差异 ， 以 深度 信息 z6 为 标准 ， 合 理 设 置 阔 值 a， 可 以 
将 手掌 从 场景 中 分 割 出 来 。 
于 原始 的 深度 图 像 包 含 过 多 的 前 景 和 背景 信息 ， 需 要 对 
其 设置 感 兴趣 区 域 (Region Of Interest，ROI)， 即 手掌 所 在 区 
域 ， 以 减少 过 多 无 关 信息 ， 提 高 程序 运行 速度 。 根 据 手掌 心 4 
标 中 的 xh、 yn ， 设 置 感 兴 趣 区 域 和 矩形 范围 : xe 
[x —offset,xy —offset] 、 ye[ yn -offset, ys 一 offset]。 根据 
实际 手掌 大 小 和 Kinect 的 检测 范围 设置 offset=150。 
在 对 手掌 进行 分 割 同时 进行 二 值 化 处 理 ， 二 值 化 的 的 操作 
同样 是 减少 无 关 信息 ， 提 高 图 像 处 理 速度 。 在 本 文 的 手掌 分 割 
中 , 以 手掌 的 深度 为 病 值 标准 , 手掌 部 分 像素 值 设置 为 255( 深 
度 介 于 [zs 一 4,zy +a] 之 间 )， 将 手掌 以 外 的 背景 信息 的 像素 值 
设置 为 0( 黑 )。 


[I 


Ez 


255, D(X, 一 QZ 十 
H(x,y)= (x y) elzy 0 Zp | jn xe 
0,D(x,y)= else 
[Xn —ofset, x —offset] ,yyE [ yy—ofset, yn —offset ] 


(1) 
公式 (1) 中 的 阔 值 a 取 15mm，D(x,y) 为 坐标 为 图 像 坐 标 为 


(wy) 处 点 的 深度 值 


E 标 为 (zy) 的 点 在 分 割 并 二 值 


化 后 的 图 像 中 的 灰 度 值 ， 


经 过 上 述 操作 获得 如 柜 


I 


大 小 为 ROI 所 限定 的 范围 。 


2 所 示 的 清晰 完整 的 手掌 图 像 。 


区 | 


Fig.2 Depth split diagram of different gestures 


进而 ， 采 月 
迭代 过 程 中 ， 


日 中 值 宛 的 手 部 图 像 进行 滑动 滤 


像素 排序 ， 保 留 中 间 值 作 


为 当前 


中 值 滤波 方法 


其 中 :了 (xy),8 (x,y) 分别 关 


j 像 素 值 。 中 值 滤 ; 
g(x,y)=med{f (x—k,y—/)} O) 
寻 像 和 处 理 后 的 图 像 。 


像 再 进行 二 值 化 ， 得 到 的 区 


的 速度 。 


手势 特征 提取 


判 噪声 效果 。 经 过 滤波 后 的 图 


几何 
图 像 


在 手掌 分 割 的 基础 
识别 。 在 众多 手势 4 
E 和 指 尖 点 特征 ， 
据 ， 以 避免 单 特 和 
不 变 矩 特征 提取 
的 几何 矩 是 1962 自 


， 可 以 提高 后 续 图 像 处 理 


tb 上， 通过 对 手势 特征 的 分 类 ， 完 成 手势 


于 像 几 何不 变 矩 的 四 个 特 


成 复合 的 手势 特 外 
FE 误差 造成 的 识别 结果 波动 。 


6 不 变量 经 过 区 


性 。 因 此 在 图 像 处 理 


标 质 心 ， 二 阶 入 
mo, mm ) 描述 


a 


操作 。 本 文选 择 其 
为 手势 特征 的 一 个 组 


E， 作 为 手势 识别 的 


的 04, 选择 出 来 的 7 个 
像 旋转 、 平 移 、 缩 放 等 操作 后 ， 保 持 不 变 


和 E 要 特征 用 于 分 类 等 


， 利 用 其 不 变性 ， 作 


别 。 
其 (P+9) 阶 普通 矩 的 公式 为 : 


mu =Jxey"f(xy)dxdy =012..3:q=012..) 0G) 


对 于 图 像 f(x,y) > 
0 阶 拢 moo 表示 


图 像 连续 时 ， 利 


=] [> me |/ Waray 
Moo Mioo 


p =0,1,2,…;g =0,],2,.… 


消除 尺度 变化 对 


E 进 行 归 一 化 ， 得 到 : 


贡 量 ”，! 阶 和 矩 〈miomo ) 表示 目 
E〈 mz , mo , mi ) 表示 旋转 半径 , 三 阶 窍 (mao ， 
标的 方位 和 和 斜 度 。 

j 质 心 mo,mw 可 得 到 中 心 矩 : 


(4) 


其 影响 ， 通 常 将 各 阶 中 心算 通过 零 阶 


(5) 
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根据 Hu 和 矩 理论 ， 得 


到 7 个 不 变 矩 特 和 
算 繁 珊 ， 对 噪声 更 敏感 03， 本 文 取 前 四 


T= 70 + 7110» 


梅 ， 


E 量 。 由 于 高 阶 矩 1 


于 


L=(70 -70) +4m1 


1; = (m0 -m2) 
T=(7130+72) 1 


Da 


字 


EE ,入 


范围 进行 压缩 。 令 


像 的 几何 不 变 匀 
出 现 负 数 ， 为 了 方便 后 续 操 作 ， 采 


+ (37721 一 1703)” 
F (3771 十 7103)” 


为 分 类 特征 


(6) 
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可 以 保证 指 尖 提 取 的 可 靠 性 。 


2.2.1 手 的 轮廓 多 边 形 提取 
为 了 减少 轮廓 数据 量 ， 加 快 凸 包 计 算 和 阔 值 圆 分 类 的 运行 
速度 ， 在 确定 指 尖 点 之 前 ， 根 据 获取 的 手掌 轮廓 图 ， 提 取 多 边 


形 ， 以 逼近 手掌 轮廓 。 
手 的 轮廓 多 边 形 提 取 采 用 Douglas-Peucker 算法 , 该 算法 主 


_ 


L=ln(|L, 


E 之 间 的 数量 级 
不 变 和 


目 差 较 大 ， 并 且 可 能 
EE 的 自然 对 数 对 数据 


(7) 


4 


(9) (d) 
图 3 不 同 手势 的 几何 不 变 矩 特征 提取 
Fig.3 Feature extraction of geometric invariant moment for different 
gestures 
根据 图 3 的 手势 提取 几何 不 变 矩 特征 ， 得 到 表 1。 
表 1 不 同 手势 的 几何 不 变 矩 特征 提取 
Table 1 Feature extraction of geometric invariant moment for different 
gestures 
手势 编号 。。 工 
1 -6.80197 -14.2192 -21.7712 -22.1432 
2 -6.47943 -14.067 -20.6139 -20.8318 
3 -6.91585 -16.3909 -26.6766 -23.5799 
4 -6.98353 -16.9139 -25.7383 -24.1375 


从 表 中 可 以 看 出 ， 手 势 1 和 2、 手 势 3 和 4 的 几何 不 变 入 


特征 分 别 相近 ， 手 势 的 方 


2.2 ” 指 尖 点 检测 


手势 通常 通过 手指 变换 来 表现 的 ， 通 过 
可 以 反映 当前 手势 。 在 手势 识别 中 ， 指 ? 


向 及 大 小 不 会 影响 


[HI 


该 特征 。 


指 尖 的 几何 关系 ， 


、 信 


于 


征 量 一 起 ， 用 


于 手 


轧 是 十 分 重要 的 。 


姑 而 ,本文 选择 指 尖 点 信息 ,作为 手势 特征 的 另 一 个 组 成 部 分 ， 
与 几何 不 变 矩 的 前 四 个 特 


为 识别 。 


在 指 尖 点 检测 过 程 


手 轮廓 多 边 形 提取 ， 然 后 基 了 
通 


,首先 基于 Douglas-Peucker 算法 进行 
F 凸 包 算 法 计算 


丘 选 指 尖 点 ， 最 后 


通过 阔 值 圆 分 类 法 完成 指 尖 点 检测 。 其 


| 


» 


闵 值 动态 调整 算法 


要 用 于 曲线 近似 表示 。 算 法 如 下 : 
a) 在 曲线 首尾 (A,B) 连接 一 条 直线 ,计算 曲线 上 其 余 各 点 
到 直线 的 距离 ; 
b) 选 择 距离 的 最 大 值 ， 与 预先 给 定 的 阐 值 比较 ;如 果 距 高 
最 大 值 小 于 阔 值 时 , 将 该 直线 AB 作为 曲线 的 近似 , 处 理 完 毕 。 
co) 如 果 距 离 最 大 值 大 于 闵 值 ， 以 最 大 值 点 C 为 分 割 点 ， 连 
结 AC、BC, 并 对 这 两 段 线 重复 1、2 两 部 分 的 操作 , 重复 迭代 ， 
直到 曲线 上 所 有 的 点 到 对 应 折线 的 距离 均 小 于 设 定 阀 值 。 
d) 处 理 完 成 后 ， 连 结 各 个 分 割 点 ， 形 成 的 折线 即 为 获得 的 
近似 曲线 。 
如 图 4 所 示 , 通过 若干 次 迭代 , 依次 搜索 出 分 割 点 C、D、 
E， 曲 线 AB 可 近似 表示 为 折线 AEDCB 。 


下 


图 4 近似 曲线 提取 


Fig.4 Approximate curve extraction byDouglas-Peucker algorithm 


利用 Douglas-Peucker 算法 , 在 手掌 分 割 图 的 基础 上 , 设置 
合适 的 阔 值 ， 得 到 图 5 中 粗 线条 所 示 的 几何 多 边 形 
近 手 掌 轮廓 。 


Qhy 


较 好 地 逼 


(a) 


图 5 手掌 多 边 形 
Fig.5 Palm polygon 
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2.2.2 候选 指 失 点 提取 
Ce 图 5(a) 所 示 手 势 有 
7 个 候选 指 尖 点 。 基 于 凸 包 算 法 的 指 尖 点 筛选 法 ， 能 够 有 效 提 
取 指 尖 点 ， 避 免 指 根 点 等 缺陷 点 的 误 提 取 。 但 是 ， 对 于 手掌 轮 
廓 边缘 与 小 辟 交 界 处 的 点 、 手 指 弯曲 时 残留 顶点 等 干扰 点 ， 难 
以 区 分 ， 因 而 手势 轮廓 多 边 形 的 凸 包 点 并 非 都 是 指 尖 点 ， 需 要 
进一步 过 滤 这 些 无 关 点 ， 阔 值 圆 法 可 以 解决 这 一 问题 。 
2.2.3 阅 值 圆 指 尖 点 提取 
在 某 一 固定 深度 时 ， 手 部 的 面积 在 五 指 伸 开 时 最 大 ， 成 拳 
形 面积 最 小 〈 约 为 手掌 去 除 掉 五 指 时 的 面积 ); 此 时 ， 以 掌心 为 
圆 个 合适 的 阔 值 圆 ， 则 指 尖 点 均 分 布 在 圆 外 。 闽 值 
指 尖 点 提取 法 中 ， 掌 心 位 置 和 阔 值 圆 半径 的 选取 将 决定 指 尖 
点 提取 的 准确 性 。 
1) 掌 心计 算 
前 述 由 Kinect 手掌 跟踪 算法 直接 获取 的 手掌 心 三 维 坐 标 
Guymza) 是 包括 五 指 的， 无 法 满足 阐 值 圆 指 尖 点 提取 法 的 应 
用 需求 。 因 而 ， 提 出 一 种 基于 距离 变换 的 掌心 精确 计算 方法 ， 
算法 流程 如 下 : 


心 ， 设 置 


ul 


dl 


a) 将 手掌 图 像 二 值 化 , 手掌 设 为 白色 , 其 他 区 域 黑色 , 如 图 
6(a) 所 示 ; 
b) 遍 历 图 像 ， 计 算 非 零 像 素 〈 白 ) 到 最 近 零 像素 的 距离 ,图 


Te 


6(b) 中 颜色 深浅 反映 该 距离 大 小 ， 离 零 像素 点 越 远 处 越 亮 ; 
o) 设 置 阔 值 ， 将 距离 小 于 阔 值 的 像素 置 为 黑 ， 大 于 阔 值 则 
不 变 ， 得 到 图 像 6(0); 
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的 距离 。 


depth 


物体 长 度 


成 像 平 面 
图 7 相机 成 像 原 理 
Fig.7 Camera imaging principles 
对 于 手掌 轮廓 图 像 中 闷 值 圆 r 与 实际 衡量 手掌 的 圆 R 关系 
上 述 原 理 可 得 : 


-六 
depth 9) 


考虑 到 传感器 误差 等 因素 存在 ， 设 置 缩放 误差 4 和 偏 移 误 
差 系数 8， 因此 


41R CQ 


r= +B= 十 
depith Z depith 4 (10) 


其 中 : &=4fR。 
则 手掌 成 像 大 小 与 手掌 到 相机 的 距离 有 关 。 因 此 ， 阐 值 圆 
法 中 的 阔 值 半径 r 随 着 距离 depth 动态 调整 遵循 式 (10)。 
(2) 系 数 & 、 回归 分 析 
为 了 确定 式 (9) 中 的 系数 & 、h ， 通 过 实验 方法 ， 上 出 


Kinect 


gj) 求 处 理 后 图 像 中 心 P ， 为 所 有 非 零 像素 点 图 像 算 阵 位 置 
xy 的 均值 。 图 6(d) (e 中 分 别 显 示 不 同 手势 时 掌心 位 置 ， 该 位 
将 不 受 手指 伸缩 状态 影响 


(0) 


图 6 通过 距离 变换 找到 掌心 


Fig.6 Find the palm by distance transformation 
2) 闵 值 动态 调整 算法 
(1) 闵 值 调整 原理 
相机 成 像 过 程 中 , 物体 (长度) 在 图 像 中 的 投影 长 度 1 与 
物体 到 相机 的 距离 depth 成 反比 ， 即 
1 
L (8) 


depth 表示 深度 ， 即 手掌 距离 传感器 


其 中 : f 为 深度 相机 焦距 ， 


采集 若干 组 rdepth 对 应 数据 , 由 回归 分 析 获 取 Q 、B 的 数值 。 
Kinect 检测 的 深度 范围 是 0.5~4 m 之 间 ， 当 距离 太 远 时 手 
掌 面积 太 小 ， 受 噪声 干扰 较 大 ， 故 实验 主要 是 取 区 间 540 ~800 
mm 的 距离 。 

以 深度 540 mm 为 例 ， 由 采集 的 五 指 轮廓 图 ， 计 算 质 心 点 
由 轮廓 多 边 形 提取 和 凸 包 计算 后 得 到 凸 包 点 序列 ， 
P,} 。 计 算 质心 到 所 有 凸 包 点 的 距离 的 均值 : 


Ne, 


p=(px,py )。 
记 作 : {pi, ps, Pas...» 


(Wpx-px) +(py-py) ) 


n 


(11) 


令 闵 值 圆 的 半径 r=0.75M 。 
测量 不 同 深度 depth 下 ， 在 五 指 伸 

径 r ， 得 到 样本 数据 如 表 2 所 示 。 
表 2 深度 depth 与 手掌 阅 值 加 半径 的 对 应 关系 


时 ， 手 掌 阔 值 圆 的 半 


Table 2 Correspondence between depth and radius r of palm threshold circle 


depth/mm 540 560 580 600 620 .. 720 740 760 780 800 


r 84 80 79 75 74 ... 63 61 57 60 58 


将 表 2 数据 代入 式 (8) 中 ,通过 线性 回归 可 以 获得 % 、B 
数值 。 回 归 分 析 结 果 如 图 8 所 示 ， 则 w =45236 ， =0.4838 。 
在 不 同 深度 条 件 下 ， 闵 值 圆 半 径 根 据 式 (9) 动 态 调 整 ， 以 消 
除 手 掌 距 离 相 机 位 置 不 同 对 阅 值 圆 分 类 法 的 影响 ， 较 好 的 剔除 
无 关 点 ， 提 高 指 尖 点 检测 的 准确 性 ， 减 小 对 手掌 运动 范围 的 限 
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一 中 
dt 
光一 
o 


1/depth 


图 8 半径 与 深度 的 关系 

Fig.8 Relationship between radius and depth 
2.2.4 阀 值 圆 指 尖 点 分 类 
在 不 同 深度 、 不 同 手势 的 情况 下 ， 通 过 可 以 动态 调整 的 阐 
值 圆 ， 去 除 阔 值 圆 内 的 无 关 点 ， 保 留 阔 值 圆 外 的 指 尖 点 。 该 方 
法 能 够 得 到 较 好 的 分 类 效果 。 如 图 9 所 示 , 大 圈 为 动态 闵 值 圆 ， 
其 外 部 标记 点 是 从 候选 指 尖 点 中 分 离 出 来 的 有 效 指 尖 点 。 


图 9 不 同 深度 、 不 同 手势 下 的 阐 值 融和 指 尖 点 提取 


Fig.9 Threshold cycle and fingertip points extraction under different 


depths,different gestures 


经 过 几何 不 变 矩 特征 量 计算 和 指 尖 点 提取 ， 得 到 手势 特征 


= 人,D,B,14,Q) 其中，Z,D,B3,1 是 几何 不 变 矩 的 前 四 个 


是 指 尖 点 数 。 
邻 手 势 识别 算法 


手势 识别 在 此 基础 上 展开 。 


特征 量 ， a 


3 上 最近 


pu 


备 过 手势 特征 提取 得 到 特征 向 量 XX={7, 芭 ,7,4} ， 在 此 


基础 上 ， 利 用 分 类 算法 对 手势 进行 分 类 ， 以 完成 手势 识别 。 
el ed le, 所 以 采用 

近邻 算法 (KNN) 作为 分 类 方法 。 KNN a 
Rs 在 多 分 类 问题 中 具有 较 好 的 分 类 效果 ， 是 一 种 


是 构建 一 个 样本 集 ， 包 括 若 干 组 
标签 不 同 的 样本 子 集 ， 每 个 样本 子 集 是 由 特征 向 量 相近 的 样本 
组 成 。 在 分 类 时 ， 输 入 测试 样本 ， 找 到 样本 集中 前 K 个 最 相似 


(距离 最 近 ) 的 样本 ， 其 中 出 现 次 数 最 多 的 标签 即 为 该 测试 样 
本 的 类 别 。 
在 手势 识别 中 ， 以 手掌 几何 不 变 矩 和 指 尖 点 个 数组 成 特征 


作为 分 类 依据 。 手 势 识别 时 采用 欧 氏 


向 量 X={1,B,B,L,a}， 


距离 4， 度 量 样本 之 间 的 相似 性 。 
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(12) 


其 中 : 和 二 [502 X34 四 为 测试 样本 特征 向 量 ， 
bs] 为 样本 集 特征 向 量 ， 


X= [Ns a Tons 
量 的 维度 。 
在 KNN 算法 中 ,参数 k 的 取 值 对 分 类 准确 率 有 较 大 影响 。 
k 值 较 大 时 ， 可 以 减少 干扰 数据 的 影响 ， 但 缺点 是 近似 误差 会 
增 大 ;， 当 值 较 小 ， 会 导致 过 度 拟 合 。 通 常 值 设置 为 Ym ， 
m 为 样本 数量 。 

为 防止 某 个 特征 过 大 或 者 过 小 ， 引 起 分 类 过 程 中 各 特征 所 
起 作用 严重 失衡 ， 需 要 对 数据 进行 归 一 化 ， 同 时 ， 归 一 化 有 利 
于 提高 算法 速度 。 在 此 ， 采 用 线性 归 一 化 方法 。 


—minVal 
Ne xXx—minVa (13) 


maxVal — minVal 


其 中 : maxValminVal 分 别 代表 全 部 数据 样本 中 该 维 数据 的 最 
大 值 和 最 小 值 。x 为 待 归 一 化 的 数值 , y 即 为 归 一 化 结果 ， 其 值 
介 于 0~1 之 间 。 

本 文 手势 识别 算法 中 , 样本 集 由 标签 为 “手势 1” 到 “手势 
6” 的 六 个 子 集 组 成 ， 每 个 子 集 由 事先 采集 的 15 个 同类 手势 组 
成 。KNN 手势 识别 算法 中 ， 通 过 KNN 分 类 器 ， 获 取 待 测 手势 
的 标签 号 ， 完 成 手势 识别 。 


4 ”算法 流程 


基于 复合 特征 和 动态 阔 值 圆 法 的 手势 识别 算法 的 流程 如 图 
10 所 示 。 


图 10 手势 识别 流程 图 


5 ”手势 识别 实验 


为 验证 基于 复合 特征 和 动态 闵 值 圆 法 的 手势 识别 算法 的 有 
效 性 ， 进 行 相关 实验 。 实 验 基 于 PC 平台 与 Kinect 传感器 。PC 
具有 2.9 GHz 的 CPU 与 8GB 的 RAM; Kinect 的 采样 图 片 大 小 
为 320*240， 帧 率 30 印 s， 能 达到 实时 识别 的 硬件 要 求 。 利 
OpenNI 和 OpenCV 开源 库 在 Visual Studio 搭建 实验 平台 。 

实验 过 程 中 ， 三 名 不 同 的 实验 者 随机 作出 编号 为 1-6 的 6 
种 手势 ， 其 中 编号 1-5 的 手势 分 别 为 手指 伸 出 1 到 5 指 ， 编 号 
6 即 为 手掌 为 拳 形 的 手势 。 手 掌 位置 和 手掌 离 Kinect 的 距离 也 
随机 变换 ， 共 计 采 集 240 组 手势 数据 ， 手 势 识别 结果 如 表 3 所 
不 。 


™ 


从 表 3 中 可 以 看 出 ， 在 动态 调节 阔 值 圆 的 情况 下 ， 对 于 不 
同 手势 ， 平 均 识别 率 达到 96.25% 以 上 。 在 实验 过 程 中 ， 其 识别 
向 应 时 间 平 均 为 0.65 s， 算 法 具有 较 高 的 实时 性 。 


一 


手势 5 的 识别 率 较 其 人 


于 


也 手势 稍 差 ， 仅 为 92.50%。 通 过 分 析 
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下 


及 实验 验证 ， 这 一 现象 是 由 于 大 拇指 较 其 他 手指 短 ， 当 其 过 于 
靠近 食指 时 ， 易 于 造成 错误 识别 。 如 图 11 所 示 ， 图 11(a) 可 正 
确 识 别 ， 图 11(b) 大 拇指 过 于 靠近 手掌 ， 识 别 己 出 现 偏差 ， 而 图 
11(c) 与 手势 4 相似， 导致 错误 识别 。 
表 3 势 识 别 实验 结果 
Table3 Gesture recognition experiment results 

手势 编号 样本 数 识别 正确 数 识别 率 

40 40 100% 

2 40 39 97.5% 

3 40 38 95.0% 

4 40 38 95.0% 

5 40 37 92.5% 

6 40 39 97.5% 

总 计 240 231 96.25% 


Da 


Fig.11 
针对 手势 5 这 一 问题 ， 
于 靠近 食指 , 对 采集 的 30 组 手势 数 


本 数 为 29， 


KNN 算法 的 主要 参数 是 及 
对 结果 造成 影响 ,前 文中 采 


(b) 
11 大 拇指 位 置 对 手势 5 识别 的 影响 


Effect of thumb position for gesture $ recognition 


识别 率 为 96.67% 。 


居 进 


虽 ， 要 求 大 拇指 不 得 过 


行 识 别 ， 识 别 正确 的 样 


值 ，K 值 过 大 或 过 小 均 可 能 会 
集 90 组 样本 集 ,每 个 手势 各 15 个 ， 


重新 统计 手势 识别 的 准 


于 值 的 选择 通常 是 奇数 ， 因 此 K 值 从 3 开始 到 13， 以 相 
同 的 测试 样本 ,改变 K 值 ， 


E 确 率 。 如 图 


12 所 示 。 
图 12 k 值 对 准确 率 的 影响 
Fig.12 Effect of k value on accuracy 
从 图 中 可 已 看 出 磊 值 过 大 或 者 过 小 对 准确 率 都 有 不 同 程度 


的 下 降 ， 当 大 介 于 5~11 时 ， 准 确 率 均 能 达到 95% 以 上 。 
为 了 与 KNN 算法 做 对 比 , 本 文 纪 


量 机 (SVM) 分 类 器 对 手势 i 


入 BP 神经 网 络 和 支持 向 


行 识别 ， 


其 训练 样本 集 与 前 文 KNN 


算法 样本 集 的 相同 ， 测 试 样本 集 也 相同 。 


从 表 中 可 以 看 出 KNN 算法 的 识别 率 最 高 。 其 根本 原因 在 
于 BP 神经 网 络 算法 和 SVM 算法 都 是 需要 对 样本 


行 训练 , 对 


羊 本 的 数量 和 质量 要 求 较 高 ， 样 本 数量 过 少 会 导致 训练 的 模型 
泛 化 能 力 较 差 ， 识 别 效果 不 佳 。 


因此 本 文通 过 增加 训练 样本 数 


量 将 总 样本 数量 提高 到 180 组 ， 


SVM 分 类 的 识别 率 提 升 到 了 


96.67%，BP 神经 网 络 的 提高 到 了 95.0%。 与 KNN 算法 相 比 ， 
SVM 分 类 器 和 BP 神经 网 络 均 要 对 样本 进行 训练 ， 会 花费 较 长 
时 间 , 而 KNN 算法 无 须 训练 , 算法 的 流程 也 十 分 简单 ,因此 花 


费时 间 与 前 两 种 算法 相 比 较 少 ， 


能 满足 本 文 手势 实时 识别 的 要 


综 上 所 述 ,对 于 不 同人 的 手 部 特征 , 均 有 较 好 地 识别 效果 。 


实验 证 明了 基于 复合 特征 和 动态 病 值 圆 法 的 手势 识别 算法 的 有 


效 性 和 实时 性 。 
表 4 不 同 分 类 算法 的 手势 识别 结果 
分 类 算法 识别 率 /% 
SVM 分 类 器 90.83 
BP 神经 网 络 83.33 
KNN 96.25 
6 ”结束 语 
本 文 利用 深度 图 像 ， 通 过 深度 阔 值 分 割 手 部 区 域 。 引 入 图 


像 的 几何 不 变 抢 作为 分 类 的 特征 ， 与 指 尖 点 特征 一 起 构成 复合 


手势 特征 。 
以 图 像 的 矩 和 指 尖 点 为 分 类 特征 ， 
分 类 ， 实 现 手势 识别 。 


提取 指 尖 点 时 ， 动 态 调整 阔 值 圆 以 除去 噪点 。 最 后 
最 近邻 算法 (KNN) 进行 
基于 复合 特征 和 动态 阔 值 圆 法 的 手势 识 


别 算 法 能 够 有 效 进 行 手势 识别 ， 识 别 率 高 、 实 时 性 好 。 
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